扒完 DeepSeek V4 报告,我翻出了这个隐藏彩蛋
扒完 DeepSeek V4 报告,我翻出了这个隐藏彩蛋今天上午,DeepSeek V4 发布,直接把这个大模型疯狂更新月推向了最高潮。不过在我翻看 V4 的技术报告的时候,在训练层面看到了一个被大部分人滑过去的名词:Muon 优化器。
来自主题: AI技术研报
8718 点击 2026-04-25 10:12
搜索
今天上午,DeepSeek V4 发布,直接把这个大模型疯狂更新月推向了最高潮。不过在我翻看 V4 的技术报告的时候,在训练层面看到了一个被大部分人滑过去的名词:Muon 优化器。